姿势注册在视觉和机器人技术中至关重要。本文重点介绍了无初始化姿势注册的挑战性任务,最高为7DOF,用于均质和异质测量。虽然最近基于学习的方法显示了使用可区分求解器的希望,但它们要么依赖于启发式定义的对应关系,要么易于局部最小值。我们提出了一个可区分的相关(DPC)求解器,该求解器是全球收敛性且无对应的。当与简单的特征提取网络结合使用时,我们的一般框架DPCN ++允许使用任意初始化的多功能姿势注册。具体而言,特征提取网络首先从一对均质/异质测量值中学习致密特征网格。然后将这些特征网格转换为基于傅立叶变换和球形径向聚集的翻译和比例不变频谱表示形式,将翻译转换和从旋转中脱钩。接下来,使用DPC求解器在频谱中独立有效地估计旋转,比例和翻译。整个管道都是可区分和训练的端到端。我们评估了DCPN ++在多种注册任务上,以不同的输入方式,包括2D Bird的视图图像,3D对象和场景测量以及医疗图像。实验结果表明,DCPN ++的表现优于经典和基于学习的基础线,尤其是在部分观察到的异质测量方面。
translated by 谷歌翻译
实时投标(RTB)是现代在线广告系统中的重要机制。广告商在RTB中采用投标策略来优化其广告效果,但根据各种财务要求,其中广泛采用的是投资回报(ROI)约束。在顺序招标过程中,ROI在非单调的情况下变化,通常在约束满意度和客观优化之间具有透视作用。通常在静态或轻微变化的市场中建立了约束 - 目标权衡解决方案。但是,由于无法适应不同的动态和部分可观察性,这些方法在非平稳广告市场中大大失败。在这项工作中,我们专门研究非机构市场的ROI限制招标。基于部分可观察到的马尔可夫决策过程,我们提出了第一个容纳非单调约束的硬屏障解决方案。我们的方法利用了无参数指标的奖励功能,并开发了课程指导的贝叶斯强化学习(CBRL)框架,以适应在非平稳广告市场中的约束目标权衡。在具有两个问题设置的大规模工业数据集上进行的广泛实验表明,CBRL在分布和分发数据制度方面都很好地概括了,并且具有出色的稳定性。
translated by 谷歌翻译
单眼视觉惯性进程(VIO)是机器人和自主驾驶中的关键问题。传统方法基于过滤或优化解决了此问题。在完全可解释的同时,他们依靠手动干扰和经验参数调整。另一方面,基于学习的方法可以进行端到端的培训,但需要大量的培训数据来学习数百万个参数。但是,非解剖和重型模型阻碍了概括能力。在本文中,我们提出了一个完全可解释的,可解释的鸟眼视图(BEV),用于具有本地平面运动的机器人的VIO模型,可以在没有深神经网络的情况下进行训练。具体而言,我们首先采用无知的卡尔曼滤波器作为可区分的层来预测音高和滚动,其中学会了噪声的协方差矩阵以滤除IMU原始数据的噪声。其次,采用了精制的音高和滚动,以使用可区分的摄像头投影来检索每个帧的重力对齐的BEV图像。最后,利用可区分的姿势估计器来估计BEV框架之间的剩余3 DOF姿势:导致5 DOF姿势估计。我们的方法允许学习通过姿势估计损失监督的协方差矩阵,表现出优于经验基准的绩效。关于合成和现实世界数据集的实验结果表明,我们的简单方法与最先进的方法具有竞争力,并在看不见的场景上很好地概括了。
translated by 谷歌翻译
One challenge for self-driving cars is their interactions not only with other vehicles but also with pedestrians in urban environments. The unpredictability of pedestrian behaviors at intersections can lead to a high rate of accidents. The first pedestrian fatality caused by autonomous vehicles was reported in 2018 when a self-driving Uber vehicle struck a woman crossing an intersection in Tempe, Arizona in the nighttime. There is a need for creating machine intelligence that allows autonomous vehicles to control the car and adapt to different pedestrian behaviors to prevent accidents. In this work, (a) We develop a Level-$k$ Meta Reinforcement Learning model for the vehicle-human interactions and define its solution concept; (b) We test our LK-MRL structure in level-$0$ pedestrians interacting with level-$1$ car scenario, compare the trained policy with multiple baseline methods, and demonstrate its advantage in road safety; (c) Furthermore, based on the properties of level-$k$ thinking, we test our LK-MRL structure in level-$1$ pedestrians interacting with level-$2$ car scenario and verify by experimental results that LK-MRL maintains its advantageous with the using of reinforcement learning of producing different level of agents with strategies of the best response of their lower level thinkers, which provides us possible to create higher level scenarios.
translated by 谷歌翻译
光学相干断层扫描(OCT)对指纹成像的技术为捕获皮肤层深度信息的能力而为指纹识别开辟了新的研究潜力。如果可以充分利用深度信息,则可以开发健壮和高安全性自动指纹识别系统(AFRSS)。然而,在现有的研究中,基于深度信息的表现攻击检测(PAD)和地下指纹重建被视为两个独立的分支,从而导致AFRS构建的高计算和复杂性。因此,本文提出了一个基于OCT的统一表示模型指纹垫和地下指纹重建。首先,我们设计了一个新型的语义分割网络,该网络仅通过基于OCT的指纹的真实手指切片训练,以从这些切片(也称为B扫描)中提取多个地下结构。从网络中得出的潜在代码直接用于有效检测PA,因为它们包含丰富的地下生物学信息,该信息与PA材料独立,并且对未知PA具有强大的鲁棒性。同时,采用了分段的地下结构来重建多个地下2D指纹。通过使用基于传统2D指纹的现有成熟技术,可以轻松实现识别。广泛的实验是在我们自己已建立的数据库上进行的,该数据库是最大的基于OCT的指纹数据库,具有2449卷。在PAD任务中,我们的方法可以从最先进的方法中提高0.33%的ACC。对于重建性能,我们的方法以0.834 miou和0.937 pa的形式达到了最佳性能。通过与表面2D指纹的识别性能进行比较,我们提出的方法对高质量地下指纹重建的有效性得到了进一步证明。
translated by 谷歌翻译
胸部X射线(CXR)中准确的异常定位可以使各种胸部疾病的临床诊断受益。但是,病变水平的注释只能由经验丰富的放射科医生进行,这是乏味且耗时的,因此很难获得。这种情况导致难以开发CXR的完全监督异常定位系统。在这方面,我们建议通过一个弱半监督的策略来训练CXR异常本地化框架,称为“超越阶级”(PBC),该策略(PBC)使用了少数带有病变级别边界框的完全注释的CXR,并通过广泛的弱化的样品和大量的带有注释的样品。点。这样的点注释设置可以通过边缘注释成本提供弱实例级信息,以实现异常定位。尤其是,我们的PBC背后的核心思想是学习从点注释到边界框的强大而准确的映射,以根据注释点的差异。为此,提出了一个正则化项,即多点的一致性,它驱动模型从相同异常内的不同点注释中生成一致的边界框。此外,还提出了一种被称为对称的一致性的自学,也提出了从弱注释的数据中深入利用有用的信息来实现异常定位。 RSNA和VINDR-CXR数据集的实验结果证明了该方法的有效性。当使用少于20%的盒子级标签进行训练时,与当前的最新方法相比,我们的PBC可以在MAP中提高〜5的改进(即点DETR)。代码可从https://github.com/haozheliu-st/point-beyond-class获得。
translated by 谷歌翻译
近年来,生成的对抗网络(GAN)在各种任务和应用中都显示出了令人信服的结果。但是,模式崩溃仍然是gan的关键问题。在本文中,我们提出了一条新型的培训管道,以解决甘恩斯的模式崩溃问题。与现有方法不同,我们建议将鉴别器概括为特征嵌入,并最大程度地提高鉴别器学到的嵌入空间中分布的熵。具体而言,两个正则化术语,即深度局部线性嵌入(DLLE)和深度等距特征映射(疾病),旨在鼓励歧视者学习嵌​​入数据中的结构信息,以便可以是歧视器所学的嵌入空间,可以是可以得到的。形成良好。基于鉴别器支持的良好学习嵌入空间,非参数熵估计量旨在有效地最大化嵌入向量的熵,以最大化生成分布的熵的近似值。通过改善鉴别器并最大化嵌入空间中最相似的样品的距离,我们的管道可有效地减少模式崩溃的情况,而无需牺牲生成的样品的质量。广泛的实验结果表明,我们的方法的有效性超过了GAN基线,MAF-GAN在Celeba上(9.13 vs. 12.43),超过了最新的基于动漫的能量模型(Anime-Face DataSet( 2.80 vs. 2.26的成立得分)。
translated by 谷歌翻译
元加强学习(Meta RL)作为元学习思想和强化学习(RL)的组合,使代理商能够使用一些样本适应不同的任务。但是,这种基于抽样的适应也使元rl容易受到对抗攻击的影响。通过操纵Meta RL中抽样过程的奖励反馈,攻击者可以误导代理商从培训经验中建立错误的知识,从而在适应后处理不同的任务时会恶化代理商的绩效。本文为理解这种类型的安全风险提供了游戏理论的基础。特别是,我们正式将采样攻击模型定义为攻击者和代理之间的stackelberg游戏,该游戏产生了最小值公式。它导致了两种在线攻击方案:间歇性攻击和持续攻击,这使攻击者能够学习最佳采样攻击,这是由$ \ epsilon $ -fir-first-first-fort stastary Point定义的,在$ \ MATHCAL {O}内(\ Epsilon^ {-2})$迭代。这些攻击方案自由地学习了学习的进度,而没有与环境进行额外互动的情况。通过通过数值实验来证实收敛结果,我们观察到攻击者的较小努力可以显着恶化学习绩效,而Minimax方法也可以帮助鲁棒化元素RL算法。
translated by 谷歌翻译
视频脱毛方法的关键成功因素是用相邻视频帧的尖锐像素来补偿中框的模糊像素。因此,主流方法根据估计的光流对齐相邻帧并融合对齐帧进行恢复。但是,这些方法有时会产生不令人满意的结果,因为它们很少考虑像素的模糊水平,这可能会引入视频帧中的模糊像素。实际上,并非视频框架中的所有像素都对脱毛都是敏锐的和有益的。为了解决这个问题,我们提出了用于视频Delurring的时空变形注意网络(STDANET),该网络通过考虑视频帧的像素模糊级别来提取尖锐像素的信息。具体而言,stdanet是一个编码器 - 码头网络,结合了运动估计器和时空变形注意(STDA)模块,其中运动估计器预测了粗略光流,这些流量被用作基本偏移,以在STDA模块中找到相应的尖锐像素。实验结果表明,所提出的Stdanet对GOPRO,DVD和BSD数据集的最新方法表现出色。
translated by 谷歌翻译
视频显着对象检测模型在像素密集注释上训练有素的训练有素,已经达到了出色的性能,但获得像素逐像素注释的数据集很费力。尚未探索几项作品,试图使用涂鸦注释来缓解这个问题,但是尚未探讨点监督作为一种更节省劳动的注释方法(即使是对密集预测的手动注释方法中最多的劳动方法)。在本文中,我们提出了一个基于点监督的强基线模型。为了使用时间信息来推断显着性图,我们分别从短期和长期角度挖掘了框架间的互补信息。具体而言,我们提出了一个混合令牌注意模块,该模块将光流和图像信息从正交方向混合在一起,自适应地突出了关键的光流信息(通道维度)和关键令牌信息(空间维度)。为了利用长期提示,我们开发了长期的跨框架注意模块(LCFA),该模块有助于当前框架基于多框架代币推断出显着对象。此外,我们通过重新标记Davis和DavSod数据集来标记两个分配的数据集P-Davis和P-Davsod。六个基准数据集的实验说明了我们的方法优于先前的最先进的弱监督方法,甚至与某些完全监督的方法相当。源代码和数据集可用。
translated by 谷歌翻译